信息时代的天文学||视频
作者:张彦霞 赵永恒 (中国科学院国家天文台)
张彦霞 研究员:大数据时代的天文学
https://v.qq.com/txp/iframe/player.html?vid=d0561uaefji&width=500&height=375&auto=0
1 引言
天文学最早可以追溯到古埃及,之后是美索不达米亚、古希腊、古中国和古印度。它一度与宗教、占星术等混为一谈,用以记录时间,预测未来和研究各种天体的位置和运动。天文学的真正创立者是希腊伟大的数学家、天文学家和地理学家托勒密,他计算了诸多天体的运行轨迹,并创立了地心说。正是在托勒密等前人的天文学知识基础上,在1500 年迎来了天文学的复兴,波兰牧师、数学家和天文学家哥白尼提出了日心说,即太阳是宇宙的中心,而不是地球。1609 年德国天文学家和数学家开普勒借助丹麦天文学家第谷的观测资料发现了天体运动的三大规律,并发现了新星,预言了水星凌日现象的出现。同年意大利物理学家、数学家、天文学家和哲学家伽利略第一次用自制的望远镜指向太空,支持和肯定了哥白尼的日心说,拉开了近代天文学的序幕。肉眼观星时代步入望远镜观星时代,从此望远镜的建造和运行直接影响着天文学的进程。20 世纪中叶以来,随着望远镜技术的提高、新型探测器的出现和空间技术的发展,天文学开始向空间发展,进一步朝其他波段扩展,促使空间天文学和多波段天文学迅速发展,直至全波段天文学出现。20 世纪60 年代引力波探测器LIGO的投入使用为我们打开了探测宇宙的另一扇大门。多目标多光纤技术的出现,天文学由单目标观测变为多目标观测,标志着巡天时代开启。各种巡天项目如雨后春笋般不断涌现,可见光波段如斯隆数字巡天项目(Sloan Digital Sky Survey,SDSS)、全景巡天和快速反应探测器(Panoramic Survey Telescope & Rapid Response System, PanSTARRS),红外波段如2 μm 全天巡天(the Two Micron All-Sky Survey,2MASS)、宽场红外巡天探测器(the Wide-field Infrared Survey Explorer,WISE),射电波段如20 cm 暗弱图像射电巡天(Faint Images of the Radio Sky at Twenty- Centimeters,FIRST)、甚大阵巡天(Very Large Array Sky Survey,NVSS),毫米波/亚毫米波如ALMA 阵列望远镜,紫外波段如国际紫外探测器(International Ultraviolet Explorer,IUE)、星系演化探测器(the Galaxy Evolution Explorer,GALEX),X 射线波段如Chandra卫星、XMM-Newton 卫星,伽马射线波段如INTEGRAL卫星。将在2020 年运行的大型综合巡天望远镜(Large Synoptic Survey Telescope,LSST)将翻开时域天文学的新篇章。随之而来的是铺天盖地的数据如潮水般涌来,天文学从数据贫瘠一跃成为数据丰富的学科。
望远镜建造的口径越来越大,观测的目标越来越多,越来越远,获取的天体信息越来越丰富。天文学特别是天体物理学发生了翻天覆地的变化,涌现出了一个个激动人心的发现,天文学日益活跃起来,成为自然科学中最活跃的前沿学科之一,在人 31 47826 31 15231 0 0 2769 0 0:00:17 0:00:05 0:00:12 2946认识宇宙的第二次飞跃中成为不可替代的主角和领头羊。天文学正在经历着一场盛况空前的革命,它将会改变我们探索宇宙的方式和回答基本问题的方法。新的技术推动了这一革命性的变化,神奇的探测器开创了探测宇宙的新窗口,创建了史无前例的超体量、高质量、高维的甚至全样本数据。加之计算机技术、存储技术、网络技术、人工智能技术及高性能计算的突飞猛进,必将引起新一轮的天文学和天体物理学研究的巨大变革。基于不同波段不同大型巡天项目的数据,利用人工智能方法挖掘隐藏在数据中的潜在相关性、新规律或新天体,应用统计学方法解释令人困惑的观测结果,离揭开宇宙的真面目为期不远了。
2 LAMOST,SDSS和LSST项目
下面我们以LAMOST,SDSS和LSST项目为例,简单介绍各个项目及其数据,从而了解目前天文学数据的大致情况。
2.1 LAMOST 项目简介
郭守敬望远镜(Large Sky Area Multi-Object Fiber Spectroscopic Telescope,LAMOST,即大天区面积多目标光纤光谱天文望远镜)是一架我国自主创新设计和研制的新类型的大视场兼大口径望远镜,即“王—苏反射施密特望远镜”,如图1 所示。它采用并行可控的光纤定位技术,在5°视场,直径为1.75 m的焦面上放置4000 根光纤,可同时获得4000 个天体的光谱,使其成为迄今为止世界上光谱获取率最高的望远镜。2011年10月24日,LAMOST正式启动先导巡天,并于2012年6月17 日结束。从2012 年9 月开始,LAMOST 正式进入科学巡天阶段。其科学目标包括河外星系的观测、银河系结构和演化、多波段目标证认。主要致力于银河系内恒星的巡天,为研究银河系的结构和演化,精确描绘银河系,特别是银盘的星族、恒星的运动和金属丰度分布,揭示银河系恒星的形成和化学增丰历史,精确绘制银河系物质组成等方面研究提供大量可靠的光谱观测资料。并且结合红外、射电、X射线、伽马射线等巡天的大量天体的观测将在各类天体的多波段证认上作出重大贡献。截止目前,LAMOST的数据发布情况见表1。
图1 LAMOST望远镜(图片摘自网络)
表1 LAMOST数据发布情况
2.2 SDSS项目简介
斯隆数字巡天(Sloan Digital Sky Survey,SDSS)是目前最富野心和影响的巡天项目。SDSS巡天望远镜是在美国新墨西哥州APO(Apache Point Observatory,APO)天文台建造的一台口径2.5 m 的专门的天文望远镜,使用大视场拼接CCD相机和多目标光纤光谱仪两种观测模式,对1 万多平方度天区进行直接成像和选源的光谱观测,如图2 所示。巡天历时8 年(SDSS-I,2000—2005 年;SDSS-II,2005—2008 年),获得了多于四分之一天区的3570000000 个独立天体的深的多色图像数据,929555 个星系,121373 个类星体和464261 个恒星的光谱数据。SDSS 二期(SDSS-II)除了继续一期的星系红移巡天外,还进行银河系恒星巡天和超新星巡天观测。SDSS 三期(SDSS-III, 2008—2014 年) 仍然沿用SDSS 的设备,包含4 个巡天计划:重子声波震荡光谱巡天(the Baryon Oscillation Spectroscopic Survey,BOSS)、刻绘整个银河系图像(SEGUE-2: Mapping the Whole Galaxy)、银河系演化探测(APO Galactic Evolution Experiment, APOGEE)、大天区多目标太阳系外行星径向速度巡天(The Multi-object APO Radial Velocity Exoplanet Large-area Survey,MARVELS),主要是研究银河系的结构和动力学、太阳系行星系统的组成和特征、暗能量和宇宙的本质。SDSS 四期(SDSS-IV)从2014 年开始,预计2020 年结束,主要有两个科学项目:通过扩展的重子振荡光谱巡天(the Extended Baryon Oscillation Spectroscopic Survey,eBOSS)对早期宇宙历史阶段精确测量和扩展南北半球红外星系光谱巡天,以及作为eBOSS的两个子项目时域光谱巡天(the Time-Domain Spectroscopic Survey,TDSS)和eROSITA源的光谱证认(the SPectroscopic IDentification of ERosita Sources,SPIDERS)。TDSS实现对变源的第一次大范围系统的光谱巡天;SPIDERS以ROSAT,XMM和eROSITA 的X 射线源为目标,提供超大质量黑洞和大尺度结构增长的独特的普查。截至目前,SDSS 数据释放情况见表2。
表2 SDSS数据释放情况
图2 SDSS望远镜(图片摘自网络)
2.3 LSST项目简介
大型综合巡天望远镜(Large Synoptic Survey Telescope,LSST)是位于智利的直径8.4 m的天文望远镜(图3),摄像机达到了32 亿像素,可以拍摄出6 个波段的图像,预计2020 年投入使用。以聚光能力和视野宽度来说,LSST 的规模是目前现役的和正在建造的所有巡天望远镜的10 倍以上。每周可以对整个南半球天空巡查两次,每晚数据量将达15 TB。LSST预计在第一个月的运行时间内将观察到比现有望远镜的总和还要广得多的宇宙空间。主要用来研究暗宇宙、宇宙的瞬间、太阳系的细节、银河系图像。
图3 LSST望远镜(图片摘自网络)
LSST 项目的产品将分为三级:第一级是每晚探测的约1000 万个时间事件流和太阳系内约600 万个天体的轨道星表,其中这些时域事件要在观测到的1 分钟内传送到相应的发布网络;第二级是每年产生的约370 亿个天体的星表(包括200 亿个星系和170 亿颗恒星)、约7 万亿单历元探测事件、约30 万亿的约定要观测的源,这些数据都可以通过在线获得,另外包括深的叠加图像;第三级是在数据中心可以将用户定制的处理和分析的服务和计算资源提供给用户。就第三级而言,使天文学界可以基于LSST 的软件、服务或计算资源创建新产品,即:基于已有的软件服务定制适合的测量和分析代码,让用户可以在LSST 数据中心运行自己的代码,从而平衡投入产出比。在不久的将来,对于大型巡天项目,释放的数据会作为其主要产品,在巡天结束之际,软件以及由这些软件处理产生的特殊或暂源星表同样也会作为其主要产品。释放的数据会作为所有星表的一部分,更频繁地广泛使用,而且会保留很长时间。LSST 软硬件的总体设计思路就是要让这一切变为现实。
2.4 LAMOST,SDSS和LSST项目的关系
LAMOST,SDSS 和LSST 都是大型巡天项目。SDSS 可以说是划时代的野心勃勃的巡天项目,开启了光谱和图像同时巡天的先河。它的构造理念、管理思路、数据处理、存放、发布、分析和应用无不影响着后续的巡天项目。LAMOST和LSST 都在借鉴它的经验和教训,一步步前行。LAMOST 望远镜仅是光谱巡天项目,光谱波长覆盖近似SDSS,也是多光纤光谱,但它的光纤数远多于SDSS,一次就可以获得近4000 条光谱,是迄今为止光谱获取率最高的望远镜。LAMOST的光谱数据处理系统正是在SDSS 的基础上发展起来的。LSST 在测光上类似SDSS,在6 个波段拍摄天空的图像,观测的深度比SDSS深,关键是巡天的速度惊人,3 天即可巡完1 次,因此可以做天空变化的微电影。SDSS 的一批精干的数据管理和处理人员直接转入LSST 项目,SDSS的经验和思想直接注入到LSST的数据管理和处理系统中,为LSST 的后续发展打下了坚实的基础。
3 天文学的起源问题
天文学和天体物理的基本研究目的是起源问题,如宇宙及其成员行星、恒星、星系的起源与演化。与起源相关的科学前沿问题,如:宇宙是如何创生的?照亮宇宙的第一代天体是什么?它们什么时候发生的?宇宙的结构是如何形成和演化的?暗物质和发光物质有何联系?星系从第一代恒星演化到现在的化石记录是什么?恒星是如何形成的?星周盘是怎样形成行星系统的?在浩瀚宇宙中,作为一颗行星上的智慧生命的我们又来自何方?宇宙本身是如何开始的?第一代恒星以及星团、星系和星系团的结构是如何形成的?我们的宇宙仅仅是无限个其他宇宙中的一个拥有生命属性的宇宙或者是一个非凡而奇异的事物?银河系、太阳系和地球行星是怎样形成的?天文环境如何影响我们的地球?
这些问题都是科学的组成部分,将宇宙从最小规模扩展到最大尺度联系起来,是传统科学不可回避的问题。解决这些问题需要天文学与许多其他学科交叉,包括物理学、数学、计算机科学和生物学等。其中与物理学科的交叉尤为重要,因为宇宙中所有物体,甚至宇宙本身都受相同的基本物理定律的支配。对于这些问题的回答将改变我们对宇宙的认识,正如几个世纪前出现的日心说理论。寻找这些问题的答案同样可以激发公众的想象力,激发人们对科学的兴趣,从而有助于创造一个更加科学的文化氛围。
上述问题以不同的方式深刻地影响着人类文明的进程。20 世纪天文学最伟大的发现是宇宙起源于大爆炸。我们观察到的星系、恒星和行星不仅是常见的,而且是从一开始就伴随着宇宙结构的演化而演化的。这些知识既有科学意义,又有哲学意义,并且产生了许多关于我们起源的有趣问题,科学家们正努力在21 世纪回答这些问题。一些基本物理、化学、生物现象可以通过天文测量、实验或理论来证实,从而推动人类知识的进步并回答科学的前沿问题,如:为什么宇宙加速膨胀?暗物质是什么?中微子有何属性?是什么控制了致密恒星的质量、半径和自旋?
问题的答案存在于无穷的数据海洋中。正是有了数据之根,20 世纪才有了一系列重大天文发现,如:行星围绕恒星运转,其中36 颗是已知的;通过地震活动的研究,确定了太阳的内部结构。研究结果肯定了太阳系的大部分太阳结构在0.1% 以内的理论模型,也支持这一假设,即观测到的太阳中微子数的缺失是因为它们具有非零质量;柯伊伯带天体的发现,有助于研究太阳系的形成历史;观察彗星Shoemaker—Levy 9 对木星的影响,可以预测其他小型天体对地球的潜在影响;褐矮星的发现,揭示了若恒星的质量太小,则不足以在内部产生核聚变;理论上预言了引力透镜的存在;发现了伽马射线爆;星系中心存在超大质量的黑洞,银河系也不例外;发现了高红移的年轻星系,揭示了从宇宙早期到现在的演化规律;发现了理论预测的背景辐射的微小波动是从大爆炸的10 亿光年到100 亿光年遗留下来的,是以后结构形成的种子;对宇宙膨胀率的预测达到10% 的精度,但这样的精度还是不够的。
21 世纪天文学已经步入大数据时代,我们准备好了吗?如何获得、处理、分析和挖掘这些数据,是摆在我们面前的不可逃避的任务。由图4可以看出不同时期天文数据量的发展变化,及所采用的数据处理和分析技术也在随之不断地发展和提高。天文观测技术的进步,推动了天文数据的急剧增长;天文数据的增长,又导致天文处理软件和工具的开发,也促进了新生学科的产生,如天文统计学和天文信息学,同时也催生了虚拟天文台的出现;巡天项目的进一步开展,推动了信息革命,数据密集型研究兴起,机器学习和人工智能有了用武之地。南加州大学马歇尔商学院副院长Gareth James 教授如是说:“数据是21 世纪的利剑,谁善于驾驭它,谁就是武士!”加州理工学院高级计算研究中心联合主任、计算天体物理研究所所长、天文系教授George Djorgovski说:“大数据不是关于数据,而是关于发现。”大数据相当于新时代的生产资料或能源,必须借助人工智能这台机器才能促使天文大发现时代的到来。
图4 各个时代的数据量和相关技术发展
4 天文统计学和天文信息学的兴起
有数据以来,天文学家就一直试图用各种简单统计方法来处理天文数据。到20 世纪六七十年代,统计软件和程序都不是为天文学家开发的,它们中的大部分是商业软件。天文学家要想处理数据,必须自己编程。到20 世纪80 年代末和90年代初,天文数据统计分析的重要突破,促使天文学家认识到了统计方法的重要性。此后,天文学家和统计学家经常组织会议碰面。值得纪念的是,从1991 年开始每5 年在美国宾夕法尼亚州立大学组织一次题为“现代天文学中的统计挑战”会议,由该校天文系教授Eric Feigelson 和统计系教授Jogesh Babu组织。在他们的推动下成立了天文统计系,致力于推动天文统计学的发展,召集组织和培训来自世界各地的天文学家和统计学家,为天文统计学的繁荣和昌盛作出了卓越贡献。两位堪称“天文和统计合作的楷模”。天文统计学也由此欣欣向荣起来。
天文学家意识到了统计的重要性,在他们的科研工作中开始频繁使用统计方法,结果由于不太了解统计方法的应用背景和前提,致使滥用或错用统计方法。大家逐渐意识到这一问题,开始效仿Eric Feigelson 和Jogesh Babu,组织天文学家和统计学家开展讨论或开会,也相继成立一些天文统计组织。2009 年在美国统计学家和哲学家Joseph M. Hilbe 的主导下成立了国际统计学会天文统计委员会,之后又成立了国际统计学会天文统计网。随着数据量达到TB、PB 量级,一些统计方法不再适用,必须开发新的统计方法和挖掘工具才可以处理。2012年3月天文统计迎来了巨大的进步,成立了天文统计与天文信息门户网站,由宾夕法尼亚州立大学负责维护。为天文学家和其他相关领域的人员提供了一个讨论、咨询、学习的窗口,了解已发表和即将发表的天文统计文章,预览将要召开的天文统计会议等。2012 年8月28 日国际统计学会天文统计委员会从国际统计学会中正式独立出来,国际天文统计学会宣告成立。同年,国际天文联合会和美国天文学会的天文信息和天文统计工作组成立。2015 年8 月国际天文联合会的天文信息和天文统计工作组正式成为国际天文联合会的天文信息和天文统计委员会。美国天文学会成立了天文统计兴趣组。大型综合巡天望远镜针对自己的项目组建了信息和统计科学团组。
近年来发表的关于天文算法的文章呈成倍增长的势头,已经达到每年约1000 篇,占到所有文献的10%。来自十多个国家的近2000 多名天文学家和学生参加了为期1—5 天的天文统计和天文信息的专门指导。交叉学科的研究合作在一些有名的大学日益活跃起来,从小型工作组到大型会议专题,而且活动的频率不断增加。
5 天文学面临的一些信息科学问题
大型巡天时代,天文学面临着许多需要信息学和数据科学来解决的科学问题,例如:不同星表的概率交叉证认、距离估测、恒星和星系分类、图像中的宇宙线识别、引力透镜的寻找、超新星的寻找与分类、各种天体的形态分类、新类型天体或新类型子类天体的发现、分类器分类规则的提高、大型数据流的分类、天文事件的实时分类、大型数据集的聚类、大型数据集中的新奇、反常和异常的现象或天体的探测等。
对于交叉证认问题,基于位置信息确定存在于不同星表中的源是否属于同一天体。数据记录数高达1010以上后,如何有效地交叉证认?证认上的概率是多少?如何考虑每一个观测设备的系统误差对证认的影响?除了位置信息,还有其他观测量,如何考虑来自这些量的限制?天体在不停地运动变化,匹配源数也在不断地增多,同一天体又有若干来自不同仪器或波段的观测,这些因素都对交叉证认提出了挑战,因此我们需要寻找最优的解决方案来最大化交叉证认的概率。
对于距离问题,在2 维或3 维空间中,我们很容易计算出两个物体的距离。但是,宇宙在空间和时间上是演化的,只有借助于距离才可以加深对天体的物理机制在空间和时间上变化的理解,如:它们存在哪里?有哪些邻居?它们什么时候开始形成?存在了多长时间?究竟哪些参数与距离相关?距离是这些参数的线性或非线性函数,还是简单的叠加?最准确的估测方法又是什么?
对于聚类问题,在数据集中找到存在哪些类别。从统计和科学的角度上,这些类别的重要性是什么?用什么最优的方法找到它们的近邻?对于超过1010的天体记录,如何有效地排序?上千维的空间中,如何寻找有意义的子空间?是否存在2 点或N点相关?对于个数超过1010的天体,如何计算N点相关?计算量与N2logN成正比的算法已经不再适用,必须发展新的算法。
对于分类问题,基于观测量,应用历史训练样本导出的规则对天体分类。分类算法成千上万,当数据维数从几百维扩展到上千维时哪一种分类算法最优?新类型天体的发现和新子类天体的发现对天文学研究至关重要,关键是否存在新类型天体或新的子类天体?在天体个数超过1010和空间维数高达上千维时如何找到它们?哪些算法可以更好地区分子类?如:支持矢量机、主分量分析、独立分量分析、神经网络等。
对于异常数据探测问题,找到超出我们预期的天体或事件。这或许就是真正的科学发现亦或垃圾。异常探测可以用于新奇探测、反常探测和数据质量评估。在低维空间和维数高达上千维的数据空间中如何优化地找到异常点或有趣的子空间?如果找到了,如何衡量这些异常点的有趣性?
这一系列天文问题的解决,需要借助新的技术和手段。在做分类、聚类、相关分析、离群探测、时间序列模式发现等数据挖掘任务时,机器学习是关键技术。机器学习针对大数据的复杂性时,也面临着诸多挑战,如数据预处理、特征选择、降维、算法和模型的选择、数据不完备、不确定性估计、可扩展性、可视化。许多复杂数据存在超维结构(如聚类、相关性等),维数达到几百维甚至上万维,而且还在持续增长,需要选择合适的挖掘算法,并对挖掘结果进行解释。
6 人工智能在天文学中的应用
21 世纪是一个数据的时代,智能的时代。各行各业的数据充斥着我们的生活,天文学也不例外。数据实实在在地摆在面前,而且数据的增长速度会越来越快。单靠手动或人工处理数据已经是捉襟见肘,无能为力了。计算机的存储和计算能力的提高,网络传输和带宽能力的加大,数据挖掘算法的突飞猛进,都为人工智能的应用铺平了道路。诚如中国科学院院士张钹在题为《基于大数据的人工智能》的演讲中讲到的深度学习的三大法宝:第一是数据;第二是计算资源;第三是算法。这三方面的铺垫已经水到渠成,正是人工智能大显身手的有利时机。天文学家不甘落后,紧跟时代的步伐,用人工智能充分挖掘潜藏在天文数据中的知识。如:应用贝叶斯方法找到了迄今为止最遥远的类星体;基于大型巡天PanSTARRS1数据用机器学习识别天琴RR型星;非监督机器学习方法Pnicer 估测恒星的消光和内禀颜色;基于XMM卫星数据和SDSS数据用随机森林方法研究天体的分类;用机器学习方法构建日冕预测模型;应用神经网络方法估算测光红移;机器学习方法寻找孤立的射电脉冲信息号,有助于探测地外文明;机器学习方法自动在SDSS暂源巡天图像数据中区分真假目标;用随机森林方法对多波段数据的自动分类;机器学习方法用于SDSS 星系红移测量前的异常数据探测;基于非监督方法对星系形态分类;机器学习方法计算星系团的动力学质量;恒星参数的自动测量;用支持矢量机预选类星体候选体,等等。关于人工智能在天文学中的更多应用,可以参看文献。
为了能够便捷地处理和分析数据,天文学家不断地努力和尝试,总结和开发出了种种工具。例如:基于Mathematics的分析技巧,参看Gregory 2005 年书籍;基于R 语言的统计分析,参看Feigelson & Babu 2012 年书籍;基于Python 语言的数据挖掘,参看Ivezic等人2014年书籍。
7 合作时代的来临
纵观天文学发展的历史,我们发现天文学的发展大大促进了社会和科技的进步。例如:天文学上高灵敏度X射线探测器的出现引发了X射线探测仪的生产和制造,用于机场、军事基地和边防的安检,以及生物医学和药物学方面;天文学家开发的图像处理技术广泛应用于关节镜手术、工业应用,甚至用于追踪濒危物种;哈勃望远镜的调度软件用于优化半导体生产和医院管理病人流。天文学促进了数据分析和数值计算,提高了图像重建技术,推动了高精度计时和位置测量,有助于地球环境检测和行星际安全,等等。任何学科的发展,都是与其他学科相辅相成,共同发展。天文学的发展离不开物理学、化学、光学、计算机等学科的发展,同时,天文学的发展也带动了其他学科的进步和提高。本学科领域的知识已经制约了自身的发展,必须结合其他学科扩展视角和研究手段。因此出现了形形色色的交叉学科,单从天文学科的角度,就有天文生物学、天文化学、天文信息学、天文统计学等。学科的融合必然依赖于科技人员的合作和协作。一个人的时间和精力是有限的,人力资源、数据资源和计算资源又分布在不同地方,合作平台的构建可以促进数据整合、资源共享和智力合力,共同打造从“大数据”到“大智慧”再到“大科学”的畅通之路。对天文学而言,建造的仪器越来越大,越来越昂贵,单靠一个国家的财力已不足以维持,所以需要联合一切可以联合的力量,共同建造下一代的天文仪器,目前在运行的好多项目已经是众筹项目。就天文学本身的特点而言,好的数据依赖于好的观测站,而放眼全世界适合观测的好台站真是屈指可数(如美国的夏威夷莫纳克亚山、智利北部的帕拉纳尔、南极、中国的阿里),因此,全世界争相在这些站点建造望远镜,合作和协作是大势所趋。天文大数据已经兵临城下,天文学家敞开思路与各个学科合作,与企业合作,如SDSS 项目与微软公司合作、中国科学院国家天文台与阿里云合作。在数据密集型第四范式的旗帜下,信息学渗透到各个学科,派生出天文信息学、生物信息学、地球信息学等,各个学科的信息成果可以互相借鉴,转移应用。
8 公众科学和普及
天文学的研究满足了人类探索宇宙,揭示人类起源的好奇心,以其自身独特的魅力吸引着公众的目光。天文学可以激发想象力,天文学就在身边,天文学是看得见的,天文学是可以共享的科学,天文学提供了发现的机会,天文学可以激发艺术创作的灵感。而且天文馆和天文台一直是公众喜欢参观和光顾的场所。天文学的发展也带领了其他学科的发展和进步,如空间科学、生物学、物理学、计算机科学和计算、医学等。正是基于这些,天文学可以作为提高全民素质和科学素养的引领学科。一个国家要想在科学和技术方面占主导地位,公众是否具备科学素养并受过良好的教育是必不可少的因素。为此,我国需要加强和推动中小学乃至大学的科学教育。推广和普及天文教育,让人们从小学科学,爱科学,真正成为建设祖国的强大生力军。通过亲自参与下面的一些项目,我们可以感知和感受科学的味道,激发大众参与科学的热情,助力科研工作者的科学研究。
宇宙动物园(Zooniverse)是为了让每个人都可以参与到真正的前沿学科中来,如天文学、生物学、气象学、历史、语言、文学、医药、自然科学、物理、社会科学、空间科学,创造了让公众参与真正发现和揭示一些未解问题的答案的机会。宇宙动物园收集了基于网页的公众科学项目,这样做一方面满足了公众探索自然知识的好奇心,从而提高公众的科学素养;另一方面可以帮助科研人员分析和处理摆在他们面前的海量数据。公众的力量是巨大的,特别是那些基于人眼识别的数据,目前自动化软件还难以达到人眼识别的程度。其中包括以下几个天文公众科学项目。
星系动物园(Galaxy Zoo)旨在让公众参与SDSS 巡天图像数据的星系形态分类。自愿者已经贡献了超过1 亿个分类目标,这为天体物理学家探讨星系形态与其内部和外部性质的联系打开了方便之门。基于星系动物园数据已经有若干重要发现,为解开各种星系演化过程提供了重要线索。星系形态很难准确界定,因而天体物理学家希望能用自动化的方法来实现星系分类的呼声比较大。目前已经有一些工作是单独基于机器学习方法实现的,但是还不太理想。期待更好的系统出现,以用于下一代大型图像巡天项目。
行星猎人(Planet Hunters)的主要目标是让公众参与基于开普勒太空望远镜数据寻找太阳系外行星。通过观察恒星的光变,在正常的时间间隔中发现恒星的亮度变化,预示着该颗恒星前面有颗行星运动。如果用自动化方法难免会错过一些发现。探测近似地球大小的行星是最令人兴奋的,同时也是最困难的,这是因为亮度的下降几乎接近噪声的水平。大部分开普勒关于地外行星发现的数据,可以通过空间望远镜的米库尔斯基数据库获得(http://archive.stsci.edu/kepler)。该库中包含了确认是地外行星的源和不是地外行星的源,这为开发和检验发现地外行星的算法提供有价值的实验数据。下一代空间卫星,如凌日行星巡天卫星(Transiting Exoplanet Survey Satellite,TESS),将会在算法上做重大提高,以期发现更多的近似地球大小的行星,进一步跟踪观测。
太阳黑子器(Sunspotter) 旨在检测太阳黑子。种种迹象表明太阳喷发直接影响我们居住的地球家园。如果喷发对着地球,那会对宇航员造成伤害,破坏卫星,影响飞机航行;若足够强的话,将造成电网瘫痪。因此,我们要实时监测太阳的活动。科研人员发现太阳喷发与太阳黑子的出现有紧密的相关性,尽管它们相关的物理机制还不是十分清楚,这为我们监测太阳活动提供了很好的参考。德布勒森黑子数据档案存储了大量的历史和实时监测太阳的图像数据,这有助于开发和检验新的复杂的图像识别和太阳喷发的预警系统。
9 结语
总而言之,大型巡天项目超体量的数据资料和天体数据库驱动了多样化的多学科研究计划:天文学和天体物理、机器学习、解释性的数据分析、超大型数据库、科学可视化、计算科学和分布式计算、探究式的科学教育。这些技术上的提高可以借鉴到其他大数据领域或学科,如生物、遥感等,必将推动企业创新。我们必须革新观念,唱响合作的主旋律,与相关学科和企业深入合作;做好技术储备,用机器学习、人工智能、云计算、云存储、高性能计算、可视化技术等来武装头脑;培训和培养面向21 世纪的新型人才,数据科学家、数据工程师、数据分析师,以及提出正确问题、运用大数据分析结果的大数据相关管理人才仍然是稀世珍品,需要依靠教育界和科学界共同努力培养和造就急需人才;抓好中小学教育和大学教育,培养下一代面向大数据的科学家。科学界与企业界合作也是发展趋势,在中国天文界已经建立了与阿里云合作的平台;在美国SDSS 项目与微软合作堪称绝配,取得了有目共睹的成绩;LSST 项目在设计超大型数据库方面,已经积极开展与企业合作。可见,大数据时代是一个多学科融合的时代,是一个合作的时代。在信息化的时代,天文信息学和天文统计学的发展,必将推动大型巡天项目的科学成果产出。一系列天文信息学和天文统计学相关会议的举办、工作组的成立、暑期班的培训都为科学家提升大数据修养和能力提供很好的资源和环境;公共教育资源的推广和应用,为提高公众的科学素养和科学水平提供了示范平台。相信科学家借力与大企业合作这股东风,乘坐天文信息学和天文统计学之舟,定能在天文大数据海洋中扬帆起航,逐步揭开浩瀚宇宙的神秘面纱。
本文选自《物理》2017年第9期
1. 量子力学诠释问题(一)
2. 量子力学诠释问题(二)
3. 高温超导研究面临的挑战
10. 费米子家族新成员——突破传统分类的三重简并费米子的实验发现
END
更多精彩文章,请关注微信号:cpsjournals